Unsupervised pre-training on millions of digital-born or scanned documents has shown promising advances in visual document understanding~(VDU). While various vision-language pre-training objectives are studied in existing solutions, the document textline, as an intrinsic granularity in VDU, has seldom been explored so far. A document textline usually contains words that are spatially and semantically correlated, which can be easily obtained from OCR engines. In this paper, we propose Wukong-Reader, trained with new pre-training objectives to leverage the structural knowledge nested in document textlines. We introduce textline-region contrastive learning to achieve fine-grained alignment between the visual regions and texts of document textlines. Furthermore, masked region modeling and textline-grid matching are also designed to enhance the visual and layout representations of textlines. Experiments show that our Wukong-Reader has superior performance on various VDU tasks such as information extraction. The fine-grained alignment over textlines also empowers Wukong-Reader with promising localization ability.
translated by 谷歌翻译
The task of Compositional Zero-Shot Learning (CZSL) is to recognize images of novel state-object compositions that are absent during the training stage. Previous methods of learning compositional embedding have shown effectiveness in closed-world CZSL. However, in Open-World CZSL (OW-CZSL), their performance tends to degrade significantly due to the large cardinality of possible compositions. Some recent works separately predict simple primitives (i.e., states and objects) to reduce cardinality. However, they consider simple primitives as independent probability distributions, ignoring the heavy dependence between states, objects, and compositions. In this paper, we model the dependence of compositions via feasibility and contextuality. Feasibility-dependence refers to the unequal feasibility relations between simple primitives, e.g., \textit{hairy} is more feasible with \textit{cat} than with \textit{building} in the real world. Contextuality-dependence represents the contextual variance in images, e.g., \textit{cat} shows diverse appearances under the state of \textit{dry} and \textit{wet}. We design Semantic Attention (SA) and generative Knowledge Disentanglement (KD) to learn the dependence of feasibility and contextuality, respectively. SA captures semantics in compositions to alleviate impossible predictions, driven by the visual similarity between simple primitives. KD disentangles images into unbiased feature representations, easing contextual bias in predictions. Moreover, we complement the current compositional probability model with feasibility and contextuality in a compatible format. Finally, we conduct comprehensive experiments to analyze and validate the superior or competitive performance of our model, Semantic Attention and knowledge Disentanglement guided Simple Primitives (SAD-SP), on three widely-used benchmark OW-CZSL datasets.
translated by 谷歌翻译
本文研究了以任务为导向的对话系统中的曝光偏差问题,其中模型在多个转弯中生成的内容驱动对话框上下文远离训练时间的地面真相分布,从而引入了错误传播并损害了TOD系统的稳健性。为了弥合训练和推理多转弯任务导向对话框之间的差距,我们建议会话级抽样,该采样将模型明确地暴露于培训期间对话框上下文的采样生成的内容。此外,我们采用基于辍学的一致性正规化与屏蔽策略R掩码,以进一步提高模型的鲁棒性和性能。拟议的UBARV2在标准化评估基准Multiwoz上实现了最先进的性能,并且广泛的实验显示了所提出的方法的有效性。
translated by 谷歌翻译
近年来,保护隐私数据分析已成为普遍存在。在本文中,我们提出了分布式私人多数票投票机制,以解决分布式设置中的标志选择问题。为此,我们将迭代剥离应用于稳定性函数,并使用指数机制恢复符号。作为应用程序,我们研究了分布式系统中的平均估计和线性回归问题的私人标志选择。我们的方法与非私有场景一样,用最佳的信噪比恢复了支持和标志,这比私人变量选择的现代作品要好。此外,符号选择一致性具有理论保证是合理的。进行了模拟研究以证明我们提出的方法的有效性。
translated by 谷歌翻译
联合学习(FL)已成为机器学习中的实用且流行的范式。但是,目前,没有系统的解决方案涵盖不同的用例。从业者经常面临如何为其用例选择匹配的FL框架的挑战。在这项工作中,我们提出了Unifed,这是对现有开源FL框架进行标准化评估的第一个统一基准。在15个评估方案中,我们从功能,可用性和系统性能的角度出发了9个现有流行开源的FL框架的定性和定量评估结果。我们还根据基准结论提供有关框架选择的建议,并指出未来的改进方向。
translated by 谷歌翻译
作为一种常见的安全工具,已广泛应用可见的水印来保护数字图像的版权。但是,最近的作品表明,可见的水印可以通过DNN删除而不会损坏其宿主图像。这样的水印驱动技术对图像的所有权构成了巨大威胁。受到DNN在对抗扰动方面的脆弱性的启发,我们提出了一种新颖的防御机制,可以永久地通过对抗机器学习。从对手的角度来看,可以将盲水水印网络作为我们的目标模型提出。然后,我们实际上优化了对宿主图像上不可察觉的对抗扰动,以主动攻击水印网络,称为水印疫苗。具体而言,提出了两种类型的疫苗。破坏水印疫苗(DWV)在通过水印拆除网络后,诱导了与水印一起破坏宿主图像。相比之下,不可行的水印疫苗(IWV)以另一种方式试图保持水印不清除且仍然明显。广泛的实验证明了我们的DWV/IWV在防止水印去除方面的有效性,尤其是在各种水印去除网络上。
translated by 谷歌翻译
多元长序列时间序列预测(M-LSTF)是一个实用但具有挑战性的问题。与传统的计时器序列预测任务不同,M-LSTF任务从两个方面更具挑战性:1)M-LSTF模型需要在多个时间功能之间和多个时间序列之间学习时间序列模式; 2)在滚动预测设置下,两个连续训练样本之间的相似性随着预测长度的增加而增加,这使模型更容易过度拟合。在本文中,我们提出了一个可推广的内存驱动变压器,以靶向M-LSTF问题。具体而言,我们首先提出一个全局级内存组件,以通过集成多个时间序列功能来驱动预测过程。此外,我们采用了一种进步的方式来训练我们的模型以提高其普遍性,在这种情况下,我们逐渐向培训样品引入伯努利的噪音。已经在多个字段上对五个不同的数据集进行了广泛的实验。实验结果表明,我们的方法可以无缝地插入不同的基于变压器的模型中,以提高其性能至大约30%。特别是,这是我们最好的知识专门关注M-LSTF任务的第一项工作。
translated by 谷歌翻译
无监督的域适应性(UDA)方法已广泛用于提高模型在一般计算机视觉中的适应能力。但是,与自然图像不同,在组织病理学图像中不同类别的核存在巨大的语义差距。它仍未探索,我们如何构建通用的UDA模型来精确分割或分类不同数据集的核实例。在这项工作中,我们提出了一个新颖的深神经网络,即用于UDA Nuclei实例分割和分类的类别感知特征对齐和伪标记网络(CAPL-NET)。具体而言,我们首先提出一个具有动态可学习权衡权重的类别级特征对齐模块。其次,我们建议通过基于Nuclei-Level原型特征的伪标签来促进目标数据上的模型性能。关于跨域核实例分割和分类任务的综合实验表明,我们的方法优于最先进的UDA方法。
translated by 谷歌翻译
缺乏创造力的抽象方法在自动文本摘要中尤其是一个问题。模型产生的摘要主要是从源文章中提取的。该问题的主要原因之一是缺乏抽象性的数据集,尤其是对于中文而言。为了解决这个问题,我们用CLT中的参考摘要解释,中国长文本摘要数据集,正确的事实不一致的错误,并提出了第一个中国长文本摘要数据集,其中包含高度的clts+,其中包含超过更多的中文。 180k文章 - 苏格尔对,可在线购买。此外,我们引入了一个基于共发生词的固有度量,以评估我们构建的数据集。我们对CLTS+摘要中使用的提取策略进行了针对其他数据集的提取策略,以量化我们的新数据的抽象性和难度,并在CLTS+上训练多个基线,以验证IT的实用性以提高模型的创造力。
translated by 谷歌翻译
零拍学习(ZSL)旨在将分类能力转移到看不见的课程。最近的方法证明,泛化和专业化是在ZSL中实现良好性能的两个基本能力。然而,它们只关注一个能力,导致模型,这些模型太过普遍,具有劣化的分类能力或专注于概括到看不见的课程。在本文中,我们提出了一种端到端网络,具有平衡的泛化和专业化能力,称为BGSNet,利用两种能力,并在实例和数据集级别平衡它们。具体而言,BGSNet由两个分支组成:泛化网络(GNET),它应用epiSodic元学习学习广义知识,以及平衡专业化网络(BSNet),它采用多个细心提取器来提取歧视特征并满足实例级别平衡。一种新颖的自调整分集损失旨在优化具有较少冗余和更多样性的BSNet。我们进一步提出了可分辨性的数据集级别平衡并更新线性退火调度中的权重,以模拟网络修剪,从而以低成本获得BSNet的最佳结构,并且实现了数据集级平衡。四个基准数据集的实验展示了我们模型的效果。足够的组分消融证明了整合泛化和专业能力的必要性。
translated by 谷歌翻译